Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Building a tree-bank of modern Hebrew text

Identifieur interne : 009447 ( Main/Exploration ); précédent : 009446; suivant : 009448

Building a tree-bank of modern Hebrew text

Auteurs : Khalil Simaan [Pays-Bas] ; Alon Itai [Israël] ; Yoad Winter [Israël] ; Alon Altman [Israël] ; Noa Nativ [Israël]

Source :

RBID : Francis:524-02-13621

Descripteurs français

English descriptors

Abstract

Cet article décrit la construction d'un corpus arboré de l'hébreu moderne. L'objectif premier vise à réduire le coût des annotations faites à la main à l'aide de moyens automatiques. A cette fin, nous montrons l'utilité de combiner un analyseur morphologique, un analyseur probabiliste et un corpus de référence de taille réduite manuellement annoté. Le corpus initial arboré consiste en 500 phrases annotées à la main par des informations morphologiques et syntaxiques. Un analyseur morphologique et un analyseur syntaxique probabiliste ont eté appliqués à ce corpus arboré. En fonction des résultats de quelques expérimentations avec ces outils, une procédure semi-automatique est mise au point pour annoter de nouveaux textes.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en" level="a">Building a tree-bank of modern Hebrew text</title>
<author>
<name sortKey="Simaan, Khalil" sort="Simaan, Khalil" uniqKey="Simaan K" first="Khalil" last="Simaan">Khalil Simaan</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>Induction of Linguistic Knowledge, Tilburg University and Computational Linguistics, University of Amsterdam Spuistraat 134</s1>
<s2>1012 VB Amsterdam</s2>
<s3>NLD</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
<country>Pays-Bas</country>
<wicri:noRegion>1012 VB Amsterdam</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Itai, Alon" sort="Itai, Alon" uniqKey="Itai A" first="Alon" last="Itai">Alon Itai</name>
<affiliation wicri:level="1">
<inist:fA14 i1="02">
<s1>Department of Computer Science, Technion - Israel Institute of Technology</s1>
<s2>Haifa 32000</s2>
<s3>ISR</s3>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>Haifa 32000</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Winter, Yoad" sort="Winter, Yoad" uniqKey="Winter Y" first="Yoad" last="Winter">Yoad Winter</name>
<affiliation wicri:level="1">
<inist:fA14 i1="02">
<s1>Department of Computer Science, Technion - Israel Institute of Technology</s1>
<s2>Haifa 32000</s2>
<s3>ISR</s3>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>Haifa 32000</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Altman, Alon" sort="Altman, Alon" uniqKey="Altman A" first="Alon" last="Altman">Alon Altman</name>
<affiliation wicri:level="1">
<inist:fA14 i1="02">
<s1>Department of Computer Science, Technion - Israel Institute of Technology</s1>
<s2>Haifa 32000</s2>
<s3>ISR</s3>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>Haifa 32000</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Nativ, Noa" sort="Nativ, Noa" uniqKey="Nativ N" first="Noa" last="Nativ">Noa Nativ</name>
<affiliation wicri:level="1">
<inist:fA14 i1="03">
<s1>English and Computer Science Departments, Hebrew University</s1>
<s3>ISR</s3>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>English and Computer Science Departments, Hebrew University</wicri:noRegion>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">524-02-13621</idno>
<date when="2001">2001</date>
<idno type="stanalyst">FRANCIS 524-02-13621 INIST</idno>
<idno type="RBID">Francis:524-02-13621</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000916</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000A26</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000915</idno>
<idno type="wicri:explorRef" wicri:stream="PascalFrancis" wicri:step="Checkpoint">000915</idno>
<idno type="wicri:doubleKey">1248-9433:2001:Simaan K:building:a:tree</idno>
<idno type="wicri:Area/Main/Merge">009998</idno>
<idno type="wicri:Area/Main/Curation">009447</idno>
<idno type="wicri:Area/Main/Exploration">009447</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en" level="a">Building a tree-bank of modern Hebrew text</title>
<author>
<name sortKey="Simaan, Khalil" sort="Simaan, Khalil" uniqKey="Simaan K" first="Khalil" last="Simaan">Khalil Simaan</name>
<affiliation wicri:level="1">
<inist:fA14 i1="01">
<s1>Induction of Linguistic Knowledge, Tilburg University and Computational Linguistics, University of Amsterdam Spuistraat 134</s1>
<s2>1012 VB Amsterdam</s2>
<s3>NLD</s3>
<sZ>1 aut.</sZ>
</inist:fA14>
<country>Pays-Bas</country>
<wicri:noRegion>1012 VB Amsterdam</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Itai, Alon" sort="Itai, Alon" uniqKey="Itai A" first="Alon" last="Itai">Alon Itai</name>
<affiliation wicri:level="1">
<inist:fA14 i1="02">
<s1>Department of Computer Science, Technion - Israel Institute of Technology</s1>
<s2>Haifa 32000</s2>
<s3>ISR</s3>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>Haifa 32000</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Winter, Yoad" sort="Winter, Yoad" uniqKey="Winter Y" first="Yoad" last="Winter">Yoad Winter</name>
<affiliation wicri:level="1">
<inist:fA14 i1="02">
<s1>Department of Computer Science, Technion - Israel Institute of Technology</s1>
<s2>Haifa 32000</s2>
<s3>ISR</s3>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>Haifa 32000</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Altman, Alon" sort="Altman, Alon" uniqKey="Altman A" first="Alon" last="Altman">Alon Altman</name>
<affiliation wicri:level="1">
<inist:fA14 i1="02">
<s1>Department of Computer Science, Technion - Israel Institute of Technology</s1>
<s2>Haifa 32000</s2>
<s3>ISR</s3>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
<sZ>4 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>Haifa 32000</wicri:noRegion>
</affiliation>
</author>
<author>
<name sortKey="Nativ, Noa" sort="Nativ, Noa" uniqKey="Nativ N" first="Noa" last="Nativ">Noa Nativ</name>
<affiliation wicri:level="1">
<inist:fA14 i1="03">
<s1>English and Computer Science Departments, Hebrew University</s1>
<s3>ISR</s3>
<sZ>5 aut.</sZ>
</inist:fA14>
<country>Israël</country>
<wicri:noRegion>English and Computer Science Departments, Hebrew University</wicri:noRegion>
</affiliation>
</author>
</analytic>
<series>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
<imprint>
<date when="2001">2001</date>
</imprint>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<title level="j" type="main">TAL. Traitement automatique des langues</title>
<title level="j" type="abbreviated">TAL, Trait. autom. lang.</title>
<idno type="ISSN">1248-9433</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Applied linguistics</term>
<term>Computational linguistics</term>
<term>Corpus annotation</term>
<term>Corpus linguistics</term>
<term>Disambiguation</term>
<term>Evaluative study</term>
<term>Method</term>
<term>Morphological parser</term>
<term>Natural language processing</term>
<term>Probabilistic model</term>
<term>Syntactic parsing</term>
<term>Tagging</term>
<term>Tree bank</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Linguistique appliquée</term>
<term>Linguistique informatique</term>
<term>Linguistique de corpus</term>
<term>Annotation de corpus</term>
<term>Hébreu</term>
<term>Traitement automatique des langues naturelles</term>
<term>Méthode</term>
<term>Analyseur morphologique</term>
<term>Analyse syntaxique automatique</term>
<term>Etude évaluative</term>
<term>Désambiguïsation</term>
<term>Etiquetage automatique</term>
<term>Modèle probabiliste</term>
<term>Corpus arboré</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Cet article décrit la construction d'un corpus arboré de l'hébreu moderne. L'objectif premier vise à réduire le coût des annotations faites à la main à l'aide de moyens automatiques. A cette fin, nous montrons l'utilité de combiner un analyseur morphologique, un analyseur probabiliste et un corpus de référence de taille réduite manuellement annoté. Le corpus initial arboré consiste en 500 phrases annotées à la main par des informations morphologiques et syntaxiques. Un analyseur morphologique et un analyseur syntaxique probabiliste ont eté appliqués à ce corpus arboré. En fonction des résultats de quelques expérimentations avec ces outils, une procédure semi-automatique est mise au point pour annoter de nouveaux textes.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>Israël</li>
<li>Pays-Bas</li>
</country>
</list>
<tree>
<country name="Pays-Bas">
<noRegion>
<name sortKey="Simaan, Khalil" sort="Simaan, Khalil" uniqKey="Simaan K" first="Khalil" last="Simaan">Khalil Simaan</name>
</noRegion>
</country>
<country name="Israël">
<noRegion>
<name sortKey="Itai, Alon" sort="Itai, Alon" uniqKey="Itai A" first="Alon" last="Itai">Alon Itai</name>
</noRegion>
<name sortKey="Altman, Alon" sort="Altman, Alon" uniqKey="Altman A" first="Alon" last="Altman">Alon Altman</name>
<name sortKey="Nativ, Noa" sort="Nativ, Noa" uniqKey="Nativ N" first="Noa" last="Nativ">Noa Nativ</name>
<name sortKey="Winter, Yoad" sort="Winter, Yoad" uniqKey="Winter Y" first="Yoad" last="Winter">Yoad Winter</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 009447 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 009447 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Francis:524-02-13621
   |texte=   Building a tree-bank of modern Hebrew text
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022